可以处理各种扬声器和声学条件的模型在语音情感识别(Ser)中至关重要。通常,这些模型往往会在培训期间呈现扬声器或声学条件时显示混合结果。本文调查了交叉组件数据互补和数据增强对Ser模型的影响(从相同的语料库中的测试设置)和不匹配(从不同的语料库测试)条件。介绍了使用六种情绪语音集团的调查,其中包括单一和多个扬声器以及情感风格的变化(作用,引发,自然)和记录条件。观察结果表明,正如预期的那样,在单一语料库上培训的模型在匹配条件下表现最佳,而性能在不匹配的条件下减少10-40%,具体取决于语料库特定功能。在混合语料库上培训的型号在不匹配的上下文中可以更稳定,与匹配条件中的单个语料库模型相比,性能减少的范围为1%至8%。数据增强产生额外的收益高达4%,似乎有利于比匹配的不匹配条件。
translated by 谷歌翻译
The deep learning community has witnessed an exponentially growing interest in self-supervised learning (SSL). However, it still remains unexplored how to build a framework for learning useful representations of raw music waveforms in a self-supervised manner. In this work, we design Music2Vec, a framework exploring different SSL algorithmic components and tricks for music audio recordings. Our model achieves comparable results to the state-of-the-art (SOTA) music SSL model Jukebox, despite being significantly smaller with less than 2% of parameters of the latter. The model will be released on Huggingface(Please refer to: https://huggingface.co/m-a-p/music2vec-v1)
translated by 谷歌翻译
The problem of predicting driver attention from the driving perspective is gaining the increasing research focuses due to its remarkable significance for autonomous driving and assisted driving systems. Driving experience is extremely important for driver attention prediction, a skilled driver is able to effortlessly predict oncoming danger (before it becomes salient) based on driving experience and quickly pay attention on the corresponding zones. However, the nonobjective driving experience is difficult to model, so a mechanism simulating driver experience accumulation procedure is absent in existing methods, and the existing methods usually follow the technique line of saliency prediction methods to predict driver attention. In this paper, we propose a FeedBack Loop Network (FBLNet), which attempts to model the driving experience accumulation procedure. By over-and-over iterations, FBLNet generates the incremental knowledge that carries rich historically-accumulative long-term temporal information. The incremental knowledge to our model is like the driving experience to humans. Under the guidance of the incremental knowledge, our model fuses the CNN feature and Transformer feature that are extracted from the input image to predict driver attention. Our model exhibits solid advantage over existing methods, achieving an average 10.3% performance improvement on three public datasets.
translated by 谷歌翻译
由于自动驾驶,物联网和流媒体服务的快速发展,现代通信系统必须应对各种渠道条件以及用户和设备的稳步增加。这以及仍在上升的带宽需求只能通过智能网络自动化来满足,这需要高度灵活和盲目的收发器算法。为了应对这些挑战,我们提出了一种新颖的自适应均衡计划,该计划通过训练用对抗性网络训练均衡器来利用深度学习的繁荣进步。该学习仅基于发射信号的统计数据,因此它对通道模型的实际发送符号和不可知论是盲目的。所提出的方法独立于均衡器拓扑,并实现了强大的基于神经网络的均衡器的应用。在这项工作中,我们证明了这一概念在对线性和非线性传输通道的模拟中,并证明了拟议的盲目学习方案的能力,可以接近非盲均衡器的性能。此外,我们提供了理论观点,并强调了方法的挑战。
translated by 谷歌翻译
具有波束成型的天线阵列在较高的载波频率下克服了高空间路径损耗。但是,必须正确对齐光束,以确保用户设备(UE)辐射(并接收)最高功率。尽管有一些方法可以通过某种形式的层次搜索来详尽地搜索最佳光束,但它们可能很容易返回具有小型梁增益的本地最佳解决方案。其他方法通过利用上下文信息(例如UE的位置或来自相邻基站(BS)的信息的位置)来解决此问题,但是计算和传达此附加信息的负担可能很高。迄今为止,基于机器学习的方法受到随附的培训,性能监控和部署复杂性的影响,从而阻碍了其规模的应用。本文提出了一种解决初始光束发现问题的新方法。它是可扩展的,易于调整和实施。我们的算法基于一个推荐系统,该系统基于培训数据集将组(即UES)和偏好(即来自代码簿中的光束)关联。每当需要提供新的UE时,我们的算法都会返回此用户群集中的最佳光束。我们的仿真结果证明了我们方法的效率和鲁棒性,不仅在单个BS设置中,而且在需要几个BS之间协调的设置中。我们的方法在给定任务中始终优于标准基线算法。
translated by 谷歌翻译
在这项工作的过程中,我们检查了塑料轮廓挤出的过程,其中聚合物熔体在所谓的挤出模中形状,并通过在下游校准单元中固化为其形状。更精确,我们专注于数据驱动的减少订单模型(ROM),目的是预测校准单元内挤出的轮廓内的温度分布。在其中,ROM是我们基于预测的过程控制总体目标的第一步,以避免最终产品的不想要的扭曲和损坏。
translated by 谷歌翻译
当前用于多模式任务的体系结构,例如视觉问题回答的较高复杂性。结果,这些架构很难训练,需要高度的计算资源。为了解决这些问题,我们提出了一个基于夹的体系结构,该体系结构不需要对功能提取器进行任何微调。简单的线性分类器用于图像和文本编码器的串联特征。在训练过程中,添加了辅助损失,该辅助损失可在答案类型上运行。然后将结果分类用作答案类选择的注意门。在Vizwiz 2022视觉问题回答挑战中,我们在任务1上获得了60.15%的准确性:预测任务2:预测视觉问题的可回答性的视觉问题和AP得分为83.78%。
translated by 谷歌翻译
监督的机器学习方法需要在训练阶段最小化损失功能。顺序数据在许多研究领域中无处不在,并且通常通过为表格数据设计的基于欧几里得距离的损失函数处理。对于平滑的振荡数据,这些常规方法缺乏对同时惩罚幅度,频率和相位预测误差的能力,并且倾向于偏向振幅误差。我们将表面相似性参数(SSP)作为一种新型损耗函数引入,对于平滑振荡序列的训练机器学习模型特别有用。我们对混沌时空动力学系统进行的广泛实验表明,SSP有益于塑造梯度,从而加速训练过程,减少最终预测误差,增加重量初始化的鲁棒性以及与使用经典损失功能相比,实施更强的正则化效果。结果表明,新型损失度量的潜力,特别是对于高度复杂和混乱的数据,例如由非线性二维Kuramoto-Sivashinsky方程以及流体中分散表面重力波的线性传播所引起的数据。
translated by 谷歌翻译
尽管当前的交互式视频对象细分方法(IVO)依靠基于涂鸦的交互来生成精确的对象掩码,但我们提出了一个基于点击的交互式视频对象细分(CIVOS)框架,以尽可能简化所需的用户工作负载。 CIVOS建立在反映用户互动和掩盖传播的DE耦合模块的基础上。交互模块将基于点击的交互转换为对象掩码,然后通过传播模块推断为其余帧。其他用户交互允许对象蒙版进行改进。该方法对流行的交互式〜戴维斯数据集进行了广泛的评估,但不可避免地适应了基于点击的基于点击的相互作用。我们考虑了在评估过程中生成点击的几种策略,以反映各种用户输入,并调整戴维斯性能指标以执行与硬件无关的比较。提出的CIVOS管道取得了竞争成果,尽管需要较低的用户工作量。
translated by 谷歌翻译
沿着链条处理结构性质性能的优化是数据驱动材料科学中的核心目标之一。从这个意义上讲,应该制造具有靶向材料微结构的工件。这些微观结构由感兴趣的材料特性定义,并识别它们是材料设计的问题。在本文中,我们解决了这个问题并引入了一种基于多任务学习的优化方法。该方法使得能够识别高度多样化的微观结构,以给定所需的性质和相应的公差。基本上,该方法包括一种优化算法,其与机器学习模型相互作用,该模型与暹罗神经网络相结合。所得模型(1)涉及微观结构和性质,(2)估计产物的微观结构的可能性,并且(3)执行距离保持微结构特征提取,以便产生较低的潜在特征空间以实现有效优化。所提出的方法应用于给出所需性质的轧制钢板的晶体纹理优化问题。
translated by 谷歌翻译